Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
We introduce LaViLa, a new approach to learning video-language representations by leveraging Large Language Models (LLMs). We repurpose pre-trained LLMs to be conditioned on visual input, and finetune them to create automatic video narrators. Our auto-generated narrations offer a number of advantages, including dense coverage of long videos, better temporal synchronization of the visual information and text, and much higher diversity of text. The video-text embedding learned contrastively with these additional auto-generated narrations outperforms the previous state-of-the-art on multiple first-person and third-person video tasks, both in zero-shot and finetuned setups. Most notably, LaViLa obtains an absolute gain of 10.1% on EGTEA classification and 5.9% Epic-Kitchens-100 multi-instance retrieval benchmarks. Furthermore, LaViLa trained with only half the narrations from the Ego4D dataset outperforms baseline models trained on the full set, and shows positive scaling behavior on increasing pre-training data and model size.
translated by 谷歌翻译
Given a dataset of expert agent interactions with an environment of interest, a viable method to extract an effective agent policy is to estimate the maximum likelihood policy indicated by this data. This approach is commonly referred to as behavioral cloning (BC). In this work, we describe a key disadvantage of BC that arises due to the maximum likelihood objective function; namely that BC is mean-seeking with respect to the state-conditional expert action distribution when the learner's policy is represented with a Gaussian. To address this issue, we introduce a modified version of BC, Adversarial Behavioral Cloning (ABC), that exhibits mode-seeking behavior by incorporating elements of GAN (generative adversarial network) training. We evaluate ABC on toy domains and a domain based on Hopper from the DeepMind Control suite, and show that it outperforms standard BC by being mode-seeking in nature.
translated by 谷歌翻译
已经证明,基于光子微孔谐振器(MRR)硬件加速器可为处理深卷积神经网络(CNN)提供破坏性的加速和能源效率的改进。但是,以前基于MRR的CNN加速器无法为具有混合张量的CNN提供有效的适应性。此类CNN的一个例子是可分离的CNN。在这种不灵活的加速器上对CNN进行CNN的推断通常会导致低硬件利用率,从而降低了加速器的可实现性能和能源效率。在本文中,我们提出了一种在基于MRR的CNN加速器中引入可重构性的新方法,以使加速器硬件组件和使用硬件组件处理的加速器硬件组件和CNN张量之间的尺寸兼容性进行动态最大化。我们根据加速器中使用的硬件组件的布局和相对位置将基于最新的MRR的CNN加速器分为两个类别。然后,我们使用我们的方法在这两个类别中引入加速器中的可重构性,从而改善其并行性,有效映射不同尺寸的张量,速度和整体能源效率的灵活性。我们根据面积比例的前景(所有加速器的相等硬件区域)对可重构加速器进行了可重构加速器的评估。我们对四个现代CNN的推断的评估表明,与来自MRR基于MRR的基于MRR的加速器相比,我们设计的可重新配置CNN加速器可改善高达1.8倍,而FPS/W高达1.5倍。先前的工作。
translated by 谷歌翻译
基于变压器的体系结构已在各种视觉域(最著名的图像和视频)中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式,但拥有一个共同的体系结构表明,人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构,或与单个模态模型相比获得较差的性能。在这项工作中,我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器,而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示,同时使用了更简单的体系结构。特别是,我们的单一预算模型可以进行审核,以在ImageNet上获得86.5%的速度,而在挑战性的事物V2视频基准测试中,可以实现75.3%的范围。此外,可以通过丢弃90%的图像和95%的视频补丁来学习该模型,从而实现非常快速的训练。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
由于检测数据集的规模小,当前对象探测器的词汇量受到限制。另一方面,图像分类器的原因是大约更大的词汇表,因为他们的数据集更大,更容易收集。我们提出守则,只需在图像分类数据上培训检测器的分类器,从而扩展了探测器的词汇量到数万个概念。与现有工作不同,拒绝不会根据模型预测将图像标签分配给框,使其更容易实现和兼容一系列检测架构和骨架。我们的结果表明,即使没有箱子注释,否则差异也能产生出色的探测器。它优于开放词汇和长尾检测基准的事先工作。拒绝为所有类和8.3地图提供了2.4地图的增益,用于开放词汇LVIS基准测试中的新型类。在标准的LVIS基准测试中,守护者达到41.7地图所有课程和41.7地图以获得罕见课程。我们首次培训一个探测器,其中包含所有二十一千类的ImageNet数据集,并显示它在没有微调的情况下推广到新数据集。代码可在https://github.com/facebookresearch/dorm提供。
translated by 谷歌翻译
我们发现Mask2Former还可以在视频实例分段上实现最先进的性能,而无需修改架构,丢失甚至培训管道。在本报告中,我们通过直接预测3D分段卷来显示通用图像分割体系结构通过直接预测3D分段卷来概括到视频分段。具体而言,Mask2Former在Youtubevis-2021上为Youtubevis-2019和52.6 AP设置了新的60.4 AP最先进的。鉴于其在图像分割中的多功能性,我们认为蒙版2格相符也能够处理视频语义和Panoptic分割。我们希望这将使最先进的视频分段研究更可访问,并更加关注设计通用图像和视频分段架构。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
自然语言推论(NLI)被认为是测试自然语言理解(NLU)的代表任务。在这项工作中,我们提出了一个可扩展的框架,以集体又分类地测试NLI(以及扩展,NLU)所需的不同逻辑推理能力。受行为测试的动机,我们创建了一个半合成的大型测试台(363模板,363K示例)和提供以下公用事业的相关框架:1)沿17个推理尺寸(包括务实推理)单独测试和分析推理能力,2 )设计实验,以研究交叉能力信息内容(留出一个或者带来一个); 3)合成性使我们能够控制伪影和偏见。从自由形式自然语言模板(使用清单)的自动测试用例实例化的继承的能力,以及明确的功能分类使我们能够扩展到(认知)更难的测试用例,同时改变自然语言的复杂性。通过我们对最先进的NLI系统的分析,我们观察到我们的基准确实很难(即使在额外资源训练中也是如此。一些能力脱颖而出。进一步的细粒度分析和微调实验揭示了对这些能力和模型的更多洞察力 - 支持和扩展之前的观察。在结束时,我们还执行用户学习,调查是否可以使用与他人相比的某些模型更好地利用行为信息。
translated by 谷歌翻译